PNAS权威研究:论文越多,科学发展越易放缓
这些年来,许多学术领域的年论文发表数量显著增加。仅仅就计算机领域的各大顶会来看,几乎每一年的论文接收量都会破上一年的记录。
各类政策措施旨在增加研究资金和科学产出(以论文数量衡量)。这些量化指标决定了学者的职业轨迹,以及学术部门、机构和国家的学术水平评估。
然而,论文数量的增加是否真实反映了科学的进步?
近日,来自西北大学、芝加哥大学和美国圣塔菲研究所的研究人员提出一套理论,解释为什么一个领域的论文发表数量过多,不仅不会推动该领域的进步反而会使发展停滞。论文题目为 Slowed canonical progress in large fields of science,发表在著名期刊 PNAS 上。
他们认为,新发表论文的泛滥,造成许多新想法之间的竞争,可能会阻碍科研人员聚焦于一个有希望的想法的集中力,使得围绕它的研究难以有效积累。
论文还展示了一系列支持该理论预测的数据:当一个科学领域每年发表的论文数量增加时,被引用的论文将不成比例地流向已经被充分引用的论文;论文的被引用量排行榜将变得僵化不变;新论文不太可能被高度引用,即使被高度引用,也不是通过一个逐渐积累的注意力聚集过程;新发表的论文不太可能打破现有工作对研究人员思想的统治……
这些发现表明,大型科学领域的进展可能会放缓,被困在现有的标准中。
理论分析
人们对科学领域是否在发展、发展的势头如何这类问题,通常抱有直接的看法。通常认为,一个领域发表的论文越多,科学进步的速度就大;研究人员越多,研究所覆盖的方面就越多。即使不是每一篇文章的影响都惊天动地,但每一篇文章都可以为科学的沙堆贡献一粒沙,增加大爆发的可能性,这种大爆发将重置科学观、创造出新的研究范式。
发表的论文越多,就越容易出现至少一篇包含重要创新的文章。一个颠覆性的新想法会破坏现状,吸引以前工作的注意力,并获得最大量的引用。
对科学研究的支持政策也反映了这种“多多益善”的观点。政府、大学或研究机构对学者的评价和奖励取决于他们的生产力。在一段时间内发表大量文章是获得终身职位和晋升的最可靠途径。数量仍然是大学和国家的衡量标准,主要集中在发表论文、专利、科学家和花费的资金的总数上。
质量也主要通过数量来判断。引用次数用于衡量某一领域内个人、团队和期刊的重要性。
在论文层面,学术界通常认为最好和最有价值的论文将吸引更多的关注,并塑造该领域的研究轨迹。
然而,这项研究预测,当每年发表的论文数量增长非常大时,新论文的快速流动会迫使学术关注已经被广泛引用的论文,并限制对不太成熟的论文的关注,即使是那些具有新颖、有用和潜在变革思想的论文。
新出版物的泛滥非但没有加速领域范式的周转,反而巩固了被引用次数最多的论文,阻碍了新作品成为被引用次数最多、最广为人知的领域经典。
随着每个领域每年出版物的数量继续增长,这种有害影响将会加剧,这几乎是不可避免的,因为推动出版物数量的是根深蒂固的、环环相接的结构。重组科学生产价值链的政策措施,可能需要让大众的注意力集中在有前途的、新颖的想法上。
本研究的重点是领域大小的影响:在给定的年份中,一个领域发表的论文数量。
此前的研究发现,在一系列学科中,引文不平等现象正在增加,至少部分是由优先依赖过程驱动的。然而,论文并不总是能保持多年来的引文水平和排名。
颠覆性论文可能会让之前的工作黯然失色,而引文数量的自然波动可能会打乱排名。
研究预测,当领域很大时,这种动力学将被改变。被引用最多的论文变得根深蒂固,在未来获得不成比例的被引用次数。新论文不可能通过优先依附的过程积累引文而成为经典。新发表的论文很少会扰乱现有的学术成果。
有两个机制驱动得出这样的发展预测。
首先,当许多论文在短时间内发表时,学者们被迫求助于启发来继续理解该领域。而不是遇到和考虑有趣的新想法各自的优点,认知超载的审查员和读者处理新工作时只会与现有的范例比较。一个不符合现有模式的新想法不太可能被发表、阅读或引用。面对这种情况,作者们被迫将自己的作品与知名论文紧密联系起来,这些知名论文就像一枚学术徽章,用来标识如何理解新作品,而不鼓励他们去研究那些不能轻易与现有标准联系起来的过于新颖的想法。突破性的新想法被产生、发表和广泛阅读的可能性都在下降,事实上,每一篇新论文的发表都会不成比例地增加已经被引用最多的论文的引用。
第二,如果新想法产生的太多,那么新想法之间的竞争可能会阻止任何新想法被广泛地了解和接受。要了解为什么会这样,可以考虑一个想法在一个领域中传播的沙堆模型。当沙子掉在沙堆慢慢地,一次一粒,等待运动在沙堆停止下降第二粒,随时间的沙堆达到无尺度临界状态,一粒沙子下降会引发雪崩在整个区域的桩。但是当沙子是快速下降,相邻的小型雪崩相互干扰,没有一粒沙子可以引发整个山体的移动。砂粒掉落的速度越快,每一粒砂粒所能影响的区域就越小。如果论文产生的速度过快,就不会有新的论文通过局部扩散和优先依附的过程上升为新的经典。
上述论点产生了六种预测,其中两种预测认为,被引用次数最多的论文将持续占据主导地位,新发表的论文将毫无创业价值,新发表的论文的影响力将降低。
相对于某一领域每年发表较少的论文,该领域每年发表较多的新论文:
1)新被引论文更倾向于引用被引最多的论文,而不是被引较少的论文;
2)被引用次数最多的论文名单每年变化不大;
3)新论文最终成为经典的概率会下降;
4)确实能跻身被引用最多论文之列的新论文,不会通过逐渐累积的扩散过程达到这一目的;
5)新发表的论文发展现有科学思想的比例增加,破坏现有科学思想的比例减少;
6)一篇新论文具有高度创新性的可能性将会下降。
实验结果
这些预测都在 Web of Science 数据集的引用模式中得到证实,如图所示。随着领域的扩大,被引用次数最多的论文将长期占据主导地位,在引文分布中占据首位。相比之下,新论文被高度引用的可能性降低,无法随着时间的推移逐渐积累关注。发表的论文倾向于发展现有的想法,而不是破坏它们,很少出现建设性的新研究。
被引用最多的论文在更大的领域中获得了不成比例的引用。最大的领域的基尼系数约为 0.5(图 1A),这与最不平等的国家的收入不平等一样大,只有中国和南非的基尼系数高于 0.5。排名靠前的论文被引用的数量不成比例,导致了不平等关注的增加。
例如,当电气与电子工程领域每年发表10,000篇论文时,前 0.1% 被引最多的论文占总被引数的 1.5%,前 1% 被引最多的论文占总被引数的 8.6%。当该领域的论文数量增长到每年 5 万篇时,排名前 0.1% 的论文获得了 3.5% 的引用,排名前 1% 的论文获得了 11.9% 的引用。当该领域的规模更大,每年发表 10 万篇论文时,排名前 0.1% 的论文被引用率为 5.7%,排名前 1% 的论文被引用率为 16.7%。相比之下,被引用最少的 50% 论文的份额随着该领域的扩大而下降,从 1 万篇论文的 43.7% 下降到每年 5 万篇和 10 万篇论文的略高于 20%。
领域变大时,经典就会固化。
被引用最多的论文的身份和排序的流失随着领域的增大而减少。当观察所有领域的数据和跨越时间的单个大领域的数据时,这种模式是一致的:当每年发表的论文数量较大时,焦点年度被引用最多的前 50 篇论文与下一个年度之间的排名相关性增加(图 1B)。该领域被引用最多的前 50 名的斯皮尔曼排序相关度从焦点年发表 1000 篇论文时的 0.25 上升到焦点年发表 10 万篇论文时的 0.74。
经典的固化之所以会发生,是因为在领域很大的情况下,被引用最多的论文每年都保持着被引用的数量,而其他所有论文的被引用计数都在下降。图 2 显示了在各被引份额百分比下的论文本年度被引率与前一年被引率的预测比值。在论文发表较少的年份,被引用最多的论文的比例显著低于 1,与被引用较少的论文没有太大差别。然而,当发表的论文数量增加时,被引最多的论文的比例接近 1,显著高于被引较少的论文。在非常大的领域年里,大约有 10 万篇论文发表,被引用最多的论文的平均被引用数量没有逐年下降。
相比之下,在该领域年度被引用最多的前 1% 之外的论文,每年平均失去 17% 的引用次数,而那些在第五百分位及以下的论文,每年会失去四分之一的引用次数。
当一篇论文与其他许多论文同一年发表时,它在该领域被引用最多的前0.1%的概率就会下降(即使是 1 年)。这在同一年的各个领域的横截面上都是正确的,在单个领域的各个年份也是如此(图 3A)。当大领域的论文确实被引用最多时,很少是通过局部扩散和优先依附的过程。图 3B 显示了一篇文章进入该领域经典的平均时间,前提是该论文成为该领域内被引用最多的论文之一。当一个领域很小的时候,论文会随着时间的推移慢慢上升到被引用最多的前 0.1%,这符合一个累积注意力聚集的过程。对 1980 年所有研究对象的线性回归预测,一篇成功的论文与该领域的 1000 篇其他论文在同一年发表时,其被引用次数达到 0.1% 的中值时间为 9 年。相比之下,在最大的领域中,进入经典的论文迅速蹿升,这与学者通过阅读他人著作中引用的文献来发现新作品的积累过程不一致。同样的回归预测,在每年发表 10 万篇论文的大领域,论文的中位数将在不到一年的时间内达到前 0.1%。
在同一年发表的大多数论文都是建立在现有文献的基础上,而不是颠覆现有文献(图 4A)。逻辑回归拟合预测,当在某一领域内发表 1000 篇论文时,49% 的论文有中断措施。当发表1万篇论文时,预计创立性论文的比例将下降到 27%,而在 10 万 篇论文时,将下降到 13%。一篇新发表的论文的创立性影响在更大的领域是微弱的。图4B显示了按领域划分的新论文占创新指标前 5% 的比例。Lowess 估计显示,在该领域年度发表 1000 篇论文时,具有前 5% 干扰指标的新论文所占比例从 8.8% 下降到 3.6%(每年发表 1 万篇论文)和 0.6%(每年发表 10 万篇论文)。
这些实证结果与研究理论的预测一致。
然而,目前的分析不能排除其他原因。附录中考虑了最显著的替代解释,即观察到的变化是由时间的推移和领域的成熟驱动的,而不是领域的规模。虽然某一领域发表的论文数量会随着时间的推移而增加,但这种增长并不是同步的。分析表明,除了时间的影响外,领域规模的影响也很显著。
研究还发现,资深学者的引文模式会随着一个领域的发展而改变。
虽然学者进入该领域时的领域规模会影响他们参考被引用次数最多的文章的倾向,但文章发表时的领域大小的影响更大。即使是知名的、经验丰富的学者,在其他许多论文也在发表的时候,也会更频繁地引用权威文章。
进一步讨论
显然,上述这些发现对当前的科学方向提出了令人不安的暗示。
如果有太多的论文在短时间内发表,新想法就无法与旧想法进行仔细的对比,积累优势的过程就无法选择有价值的创新。
当今科学事业以数量和度量为导向的“多即是好”的本质,可能会具有讽刺意味地阻碍最大科学领域的根本进步。由于在线文章级别访问,期刊的扩散和期刊等级的模糊会加剧这个问题。
减少数量是不可能的。禁止出版年刊、关闭期刊、关闭科研机构、减少科学家数量等政策处方难以下咽。
论文作者指出,即使一位科学家全心全意地同意这项研究的含义,考虑到他们的职业前景以及他们的同事和学生的职业前景受到损害,削减他们的产出是不切实际的。在不改变其他激励因素的情况下限制文章数量,可能会阻碍新颖、重要的新思想的发表,从而不利于低风险、以经典为中心的工作。
尽管如此,在学术研究的进行、传播、消费和奖励方式上的一些改变可能有助于加速大型科学领域的基础进步。
一个更清晰的期刊等级体系,让最负盛名、参与度最高的期刊刊登一些不那么传统的文章,可以培养创立性的学术成果,把注意力集中在新颖的想法上。奖励和晋升制度,尤其是在最负盛名的机构,避开数量衡量,看重更少、更深入、更新颖的贡献,可以减少争夺某个领域关注的论文泛滥,同时激发不那么以经典为中心的、更有创新性的工作。这些措施虽然不容易在大领域中实施,但可能有助于将学术界推向更新颖的前沿。
尽管被引用最多的文章保持不变,但进步可能仍然在发生。
例如,虽然《分子生物学》上被引用最多的文章发表于 1976 年,并且自 1982 年以来一直是每年被引用最多的文章,但很难说这个领域已经停滞不前了。
只是,最近的证据表明,现在需要更多的研究努力和资金,才能得到同等影响力的科学成果。我们会不会因为被困在过度劳累的、学习新论文的过程中,而错过了新的科学发展可能性?